Normalização Textual e Indexação Semântica Aplicadas na Filtragem de SMS Spam
نویسندگان
چکیده
Resumo—Nos últimos anos, a popularização dos celulares e smartphones impulsionou o uso de SMS como forma alternativa e barata de comunicação. O crescimento de adeptos ao serviço aliado a alta confiança que os usuários possuem nesses tipos de mensagens, vêm atraindo a atenção de pessoas e empresas mal intencionadas, conhecidas como spammers. O spam nesse contexto representa um problema para os métodos tradicionais e já consolidados, pois tais técnicas, normalmente projetadas para processar e-mails, geralmente não obtém desempenho satisfatório quando aplicadas diretamente para classificar SMS, uma vez que essas mensagens tem tamanho reduzido e conteúdo normalmente repleto de gı́rias, sı́mbolos e abreviações. Nesse cenário, este artigo apresenta um método baseado em normalização de textos e indexação semântica com o intuito de melhorar o desempenho de algoritmos de classificação tradicionais na filtragem de spam propagados via SMS. O método proposto é utilizado para normalizar os termos das mensagens e criar novos atributos, de forma a alterar e expandir as amostrar originais, com o objetivo de suavizar fatores que podem degradar o desempenho dos algoritmos de classificação, como redundâncias e inconsistências. Os experimentos foram conduzidos com uma base de dados real, pública e não codificada, além de vários métodos tradicionais de aprendizado de máquina. A análise estatı́stica dos resultados indica que o emprego da técnica proposta, de fato, melhora a qualidade da predição das mensagens.
منابع مشابه
Incorporação de representação vetorial distribuída de palavras e parágrafos na classificação de SMS SPAM
Resumo—A classificação automática de SMS spam é um problema desafiador, pois ao contrário de outros documentos (como e-mails, por exemplo), esses textos são extremamente curtos, com no máximo 140 caracteres. Além disso, eles normalmente são escritos utilizando gírias, abreviaturas e símbolos como emoticons. Técnicas de pré-processamento tem sido aplicadas para contornar esse problema, como o us...
متن کاملFiltragem Wavelet de Sinais Cardíacos através de Algoritmos Adaptativos
Resumo: Neste trabalho o algoritmo de Azzalini, Farge e Schneider, utilizado em análise de imagens, é modificado, produzindo uma versão adaptativa e uma recursiva para a filtragem de sinais cardíacos. Através destes algoritmos um limiar de corte é obtido baseado na variância do ruído e a série wavelet do sinal analisado é então truncada. Wavelets ortonormais de Daubechies são consideradas. Para...
متن کاملTécnicas de Filtragem para Persistência de Dados de Redes de Sensores Ópticos FBG
Resumo. Sensores ópticos FBG ocupam um papel de destaque no monitoramento estrutural devido as suas características únicas. Taxas de aquisição cada vez mais elevadas têm sido possíveis utilizando interrogadores ópticos mais recentes, o que dá origem a um grande volume de dados cuja manipulação e armazenamento tornam-se dispendiosos em termos de processamento e também em termos de espaço de arma...
متن کاملIdentifying the Pertinent Features of SMS Spam
Mobile SMS spam is on the rise and is a prevalent problem. While recent work has shown that simple machine learning techniques can distinguish between ham and spam with high accuracy, this paper explores the individual contributions of various textual features in the classification process. Our results reveal the surprising finding that simple is better: using the largest spam corpus of which w...
متن کاملAn Effective Model for SMS Spam Detection Using Content-based Features and Averaged Neural Network
In recent years, there has been considerable interest among people to use short message service (SMS) as one of the essential and straightforward communications services on mobile devices. The increased popularity of this service also increased the number of mobile devices attacks such as SMS spam messages. SMS spam messages constitute a real problem to mobile subscribers; this worries telecomm...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2014